Yiksan0315's Blog

Machine Translation

# Tag:

  • Source/KU_ML2
  • Subject/AI/NLP

Machine Translation

기계 번역.

Convetional Seq2Seq model for machine translation

기존의 방식은 Encoder에 해당하는 LSTM layer를 거쳐 hidden state를 얻고, 그 후 decoder에 해당하는 LSTM layer에 input으로 넣어 기계 번역을 진행하는 방식이었다.

<START>와 같은 토큰이 들어오면 그 다음 단어를 예측하고, 그 단어는 또 다음 단어를 예측하기 위해 쓰이는 방식으로 번역이 이루어진다.

하지만, 이러한 방식으로는 초반에 들어왔었던 source input의 정보가 거의 잊혀지거나, 각 대응되는 단어에 맞게 집중되지 못한다는 단점이 존재했다.

Attention-based model for machine translation

위의 단점을 해결하기 위해 나온, Attention기반의 기계번역 model.

LSTM layer로 이루어진 encoder와 decoder는 그대로 유지하지만, decoder에 대응 되는 단어에 대해 Attention을 추가하여 더 적절하게 번역이 이루어지도록 한다.

attention weights를 통해, 각 source input이 대응되는 정도를 반영한다.

  • : when is decoder, is decoder.
  • : attention weights, Softmax를 이용해 계산된다.
  • : context vector.
  • : 다음 decoder의 output 단어를 예측한다.
toc test

이 페이지는 리디주식회사에서 제공한 리디바탕 글꼴이 사용되어 있습니다. 리디바탕의 저작권은 리디주식회사가 소유하고 있습니다.

This Font Software is licensed under the SIL Open Font License, Version 1.1.

Copyright 2025. yiksan0315 All rights reserved.